FILTER MODE ACTIVE

#дообучение LLM

Найдено записей: 5

#дообучение LLM18.10.2025

Сигмоидное масштабирование делает RL пост-тренинг предсказуемым для LLM

'Новое исследование показывает, что прогресс RL пост-тренинга следует сигмоидным кривым, и предлагает ScaleRL — рецепт, подтверждённый до 100k GPU-часов для предсказуемого масштабирования LLM.'

#дообучение LLM03.10.2025

Tinker от Thinking Machines: низкоуровневый API для распределённой дообучения LLM с контролем над шагами

'Tinker предоставляет низкоуровневый API для написания пользовательских тренировочных циклов локально с выполнением на управляемых кластерах; акцент на LoRA и переносимых весах.'

#дообучение LLM24.08.2025

Prefix-RFT: направление LLM с частичными демонстрациями для объединения SFT и RFT

Prefix-RFT объединяет SFT и RFT через использование частичных демонстраций, направляя исследование и улучшая стабильность и качество на математических бенчмарках по сравнению с отдельными и гибридными подходами.

#дообучение LLM10.08.2025

От 100 000 до менее 500: как Google с помощью активного обучения сокращает разметку для LLM

'Google демонстрирует, что дообучение LLM возможно с менее чем 500 целевыми метками, сохраняя или улучшая качество модели при сокращении объема разметки на несколько порядков.'